RVC + VC Client
2023/4/9
まだ話題になってないけど、画像生成AIで半年前から起きたような混乱が音声でも同様におきる気しかしない
これが広まらない未来はちょっと見えない…
...
・この記事の最終目標は「リアルタイム変換でずんだもんボイスになってDiscordで通話する」です。 流れ
RVCで学習モデル(pthファイル)を作成
研究目的の利用でお願いします。
読唇の研究、音声合成の研究、音声認識の研究、リップシンクの研究、その他の研究にお役立てください。
観賞用としてダウンロードするのはNGとなります。
研究の範囲内で機械学習などでできあがった音声などを公開する分には問題ありません。
downwoad 「ROHAN4600_zundamon_voice.zip」(6.6G)
download 「ITAコーパスマルチモーダルデータベース→ずんだもんボイスデータ」939MB click go-web.bat
https://gyazo.com/972752ae17c66b61488f8ff2d03ad959
step1:填写实验配置。实验数据放在logs下,每个实验一个文件夹,需手工输入实验名路径,内含实验配置,日志,训练得到的模型文件。
ステップ1:実験の設定を入力してください。実験データはlogsフォルダに格納され、各実験は別々のフォルダに保存されます。実験名のパスを手動で入力する必要があります。フォルダには、実験の設定、ログ、トレーニングで得られたモデルファイルが含まれています。
目标采样率
目標サンプリングレート
模型是否带音高指导(唱歌一定要,语音可以不要)
モデルに音高指導が含まれているか(歌唱には必要ですが、音声には必要ありません)
これを入れると強制的にpitchが補正される?基素.icon
step2a:自动遍历训练文件夹下所有可解码成音频的文件并进行切片归一化,在实验目录下生成2个wav文件夹;暂时只支持单人训练。
トレーニングフォルダー内のすべての音声に変換可能なファイルを自動的にトラバースして、スライスを正規化し、実験ディレクトリに2つのwavフォルダを生成します。現在は、単一のトレーニングのみをサポートしています。
请指定说话人id
話者IDを指定してください。
输出信息
出力情報
https://gyazo.com/5f78ac377926c5b3bbfb1816e4044765
https://gyazo.com/78ad9625c2e20ffb1a6441945dd0f36c
step2b:使用CPU提取音高(如果模型带音高),使用GPU提取特征(选择卡号)
CPUを使用してピッチを抽出します(モデルにピッチがある場合)。GPUを使用して特徴を抽出します(カード番号を選択します)。
以-分隔输入使用的卡号,例如 0-1-2 使用卡0和卡1和卡2
入力で使用するカードを「-」で区切ります。例:0-1-2はカード0、カード1、カード2を使用します。
显卡信息
GPU情報
提取音高使用的CPU进程数
ピッチ抽出に使用するCPUプロセス数
选择音高提取算法:输入歌声可用pm提速,高质量语音但CPU差可用dio提速,harvest质量更好但慢
ピッチ抽出アルゴリズムを選択します:入力の歌声には、pmを使用して速度を上げることができます。高品質の音声ですが、CPUが悪い場合はDIOを使用することができます。harvestはより良い品質ですが、遅いです。 特征提取
特徴抽出
step3:填写训练设置,开始训练模型和索引
トレーニング設定を入力し、モデルとインデックスのトレーニングを開始する
是否仅保存最新的ckpt文件以节省硬盘空间
最新のckptファイルのみを保存して、ディスクスペースを節約するかどうか
是否缓存所有训练集至显存。10min以下小数据可缓存以加速训练,大数据缓存会炸显存也加不了多少速
トレーニングセット全体をキャッシュし、GPUメモリに保存するかどうか。10分以内の小規模データは、トレーニングを加速するためにキャッシュできますが、大規模データは、メモリを圧迫するだけで、速度向上があまりありません。
加载预训练底模G路径
事前学習済みのベースモデルGのパスを読み込む
加载预训练底模D路径
事前学習済みのベースモデルDのパスを読み込む
以-分隔输入使用的卡号,例如 0-1-2 使用卡0和卡1和卡2
カード番号を-で区切って入力し、使用するカード番号を指定します。例:0-1-2 はカード0とカード1とカード2を使用します。
batch_size 8数分で終了
【今あるもの】 .wavファイルをn秒区切りで分割して学習素材にするやつ
【今後予定】
・分割したwavファイルを無音のものと、音声ありで選別するスクリプト
VC Clientで学習モデルをつかう
Windows 環境で Nvidia の GPU をお持ちの方は多くの場合は ONNX(cpu,cuda),PyTorch(cpu)版で動きます
https://gyazo.com/991132c40318bef9c404cb0abd2fbf4c
https://gyazo.com/7cf844ac2553f102e46d53f458cbd656
がびがび
sampling rate?
Advanced Setting > Sending Sample Rate
24000を選択し直したらましになった
疑問
https://gyazo.com/6d5cf0cba3e373caadc5e03925845c4d
ここの一致は必要?
48kで学習したら声が低くなった
Tuning 0のとき Model 48k - Sending Sample Rate:48k > Model 40k - Sending Sample Rate48kだった
epoch
10と30はかなり違う
30と60でさほど差はない(数分使った程度で認識できず)
動画投稿
縦長と横長作るのめんどくさすぎる
code:クレジット.txt
リアルタイムボイスチェンジャーのRetrieval-based-Voice-Conversion + VC Clientを試しただけです 。
前半はepoch 30、後半はepoch 60でピッチ推定はharvestを使っています
https://youtube.com/shorts/0UG7H0d1-TI?feature=share
「らん らん ら ら らん らん らん」の末尾が「らん ろーざ」になる。これはこう発話しているわけではなく変換によってなにかがおきてる